Maximum Entropy Model

Model all that is known and assume nothing about that which is unknown. ### 连续变量 在特定温度下,气体中粒子速度的分布就是最大熵的分布。 考虑下面的优化问题: \[\max_f h(f)\\s.t. f(x)\ge 0\\ \int f(x)dx=1\\ \int f(x)r_i(x)dx=\alpha_i\] 定义泛函\(J(f) = -\int flnf + \lambda_0\int f+\sum_{i=1}^m\lambda_i\int fr_i\) 利用变分\(\frac{\partial J}{\partial f}=-lnf-1+\sum_{i=1}^m\lambda_ir_i\)\(f(x)\)具有以下形式 \[f(x)=e^{\lambda_0-1+\sum_{i=1}^m\lambda_ir_i(x)}\] 泛函变分在这里非常实用,这块知识需要小补一下 ### 离散变量 在分类问题中,最大熵模型是离散形式的 对于训练集\(T=\{(x_1,y_1),\cdots,(x_n,y_n)\}\) 统计概率分布\(\tilde P(x),\tilde P(x,y),\tilde P(y|x)\) 特征函数\(f(x,y)\),即连续中的\(r_i\),对应的期望\(E_{\tilde P}(f)=\sum_{x,y}\tilde P(x,y)f(x,y)\) 最大熵模型为在满足约束的分布 \[C = \{P|E_P(f_i) = E_{\tilde P}(f_i)\}\] 找到条件熵最大的 \[H(P) = -\sum_{x,y}\tilde P(x)P(y|x)logP(y|x)\] 转化成优化问题 \[ min -H(P)=\sum_{x,y}\tilde P(x)P(y|x)logP(y|x)\\ s.t. E_{P}(f_i) - E_{\tilde P}(f_i) = 0\\ \sum P(y|x) = 1 \] 引入拉格朗日函数\(L(P,w)\) 根据凸性和对偶原理,原问题 \(\min_P\max_wL(P,w)\),转化对偶问题\(\max_w\min_PL(P,w)\) 最终解得 \[P_w(y|x) = \frac{exp(\sum_{i=1}^nw_if(x,y))}{\sum_yexp(\sum_{i=1}^nw_if(x,y))}\] 之后需要求解以上的参数\(w\),使得对偶函数极大化,而该过程和最大熵的极大似然估计是一致的

log-linear model

以下模型都是对数线性模型 1. log-linear model 2. maximum entropy model (maxent) 3. exponential family model 4. energy-based model 5. Boltzmann distribution 6. conditional random field.

最大熵模型是逻辑回归的推广,而且神经网络中softmax在形式上就是最大熵

训练算法

IIS 与 GIS 资料有点少

Contents
  1. 1. log-linear model
  2. 2. 训练算法
|